11 research outputs found

    Une fonction distance à k points pour l'inférence géométrique robuste

    Get PDF
    Analyzing the sub-level sets of the distance to a compact sub-manifold of R d is a common method in topological data analysis, to understand its topology. Therefore, topological inference procedures usually rely on a distance estimate based on n sample points [41]. In the case where sample points are corrupted by noise, the distance-to-measure function (DTM, [16]) is a surrogate for the distance-to-compact-set function. In practice, computing the homology of its sub-level sets requires to compute the homology of unions of n balls ([28, 14]), that might become intractable whenever n is large. To simultaneously face the two problems of a large number of points and noise, we introduce the k-power-distance-to-measure function (k-PDTM). This new approximation of the distance-to-measure may be thought of as a k-pointbased approximation of the DTM. Its sublevel sets consist in unions of k balls, and this distance is also proved robust to noise. We assess the quality of this approximation for k possibly drastically smaller than n, and provide an algorithm to compute this k-PDTM from a sample. Numerical experiments illustrate the good behavior of this k-points approximation in a noisy topological inference framework.Afin de comprendre la topologie d'une sous-variété compacte de R^d, il est courant en analyse topologique des données d'analyser les sous-niveaux de la fonction distance à cette sous-variété. C'est pourquoi, les procédures d'inférence topologique reposent souvent sur des estimées de la fonction distance, construites sur n points. Lorsque l'échantillon de points est corrompu par des données aberrantes, la fonction distance à la mesure (DTM) est une alternative à la distance au compact. En pratique, le calcul de l'homologie de ses sous-niveaux revient à calculer l'homologie d'unions de n boules, ce qui devient impossible lorsque n est grand. Afin de pallier simultanément le problème du grand nombre de points et du bruit, nous introduisons la fonction k-puissance distance à la mesure (k-PDTM). Il s'agit d'une nouvelle approximation de la fonction distance à la mesure qui peut être vue comme une approximation de la DTM basée sur k points. Ses sous-niveaux sont des unions de k boules, et cette distance est robuste au bruit. Nous étudions la qualité de cette approximation pour k possiblement beaucoup plus petit que n, et fournissons un algorithme permettant de calculer cette k-PDTM à partir d'un échantillon de points. Des expériences numériques illustrent le bon comportement de cette approximation construite sur k points, dans le cadre de l'inférence topologique avec bruit

    La k-PDTM : un coreset pour l'inférence géométrique

    Get PDF
    Analyzing the sub-level sets of the distance to a compact sub-manifold of R d is a common method in TDA to understand its topology. The distance to measure (DTM) was introduced by Chazal, Cohen-Steiner and Mérigot in [7] to face the non-robustness of the distance to a compact set to noise and outliers. This function makes possible the inference of the topology of a compact subset of R d from a noisy cloud of n points lying nearby in the Wasserstein sense. In practice, these sub-level sets may be computed using approximations of the DTM such as the q-witnessed distance [10] or other power distance [6]. These approaches lead eventually to compute the homology of unions of n growing balls, that might become intractable whenever n is large. To simultaneously face the two problems of large number of points and noise, we introduce the k-power distance to measure (k-PDTM). This new approximation of the distance to measure may be thought of as a k-coreset based approximation of the DTM. Its sublevel sets consist in union of k-balls, k << n, and this distance is also proved robust to noise. We assess the quality of this approximation for k possibly dramatically smaller than n, for instance k = n 1 3 is proved to be optimal for 2-dimensional shapes. We also provide an algorithm to compute this k-PDTM.L'analyse des sous niveaux de la fonction distance à une variété compacte de R d est très fréquente en analyse topologique des données, avec pour objectif d'en comprendre la topologie. La distance à la mesure (DTM) a été introduite par Chazal, Cohen-Steiner et Mérigot avec l'objectif de remédier au caractère non robuste au bruit et aux données aberrantes de la distance à un compact. Cette fonction rend possible l'inférence de la topologie d'un sous-ensemble compact de R d à partir d'un nuage de n points tirés dans un voisinage proche de la sous-variété au sens de Wasserstein. En pratique, les sous-ensembles de niveau de cette fonction peuvent être estimés en utilisant des approximations de la DTM tels que la q-witnessed distance ou d'autres fonctions puissance. Ces approches reviennent à calculer l'homologie de l'union de n boules, ce qui devient impossible en pratique lorsque n devient trop grand. Afin de traiter le problème du grand nombre de points et du bruit, on introduit la fonction k-puissance distance à la mesure (k-PDTM). Cette nouvelle approximation de la distance à la mesure peut être vue une approximation de la DTM s'appuyant sur un kk-coreset. Ses sous-niveaux seront alors des unions de k boules pour k<<n, et cette fonction est également robuste au bruit. On étudie la qualité de cette approximation lorsque k est très petit par rapport à n. Par exemple, le choix de k=n^{1/3} est optimal pour des formes en dimension 2. On fournit également un algorithme pour calculer cette fonction k-PDTM

    Robust Bregman Clustering

    Get PDF
    International audienceUsing a trimming approach, we investigate a k-means type method based on Bregman divergences for clustering data possibly corrupted with clutter noise. The main interest of Bregman divergences is that the standard Lloyd algorithm adapts to these distortion measures, and they are well-suited for clustering data sampled according to mixture models from exponential families. We prove that there exists an optimal codebook, and that an empirically optimal codebook converges a.s. to an optimal codebook in the distortion sense. Moreover, we obtain the sub-Gaussian rate of convergence for k-means 1 √ n under mild tail assumptions. Also, we derive a Lloyd-type algorithm with a trimming parameter that can be selected from data according to some heuristic, and present some experimental results

    A statistical test of isomorphism between metric-measure spaces using the distance-to-a-measure signature

    No full text
    MSC: Primary 62G10; secondary 62G09International audienceWe introduce the notion of DTM-signature, a measure on R that can be associated to any metric-measure space. This signature is based on the function distance to a measure (DTM) introduced in 2009 by Chazal, Cohen-Steiner and Mérigot. It leads to a pseudo-metric between metric-measure spaces, that is bounded above by the Gromov-Wasserstein distance. This pseudo-metric is used to build a statistical test of isomorphism between two metric-measure spaces, from the observation of two N-samples. The test is based on subsampling methods and comes with theoretical guarantees. It is proven to be of the correct level asymptotically. Also, when the measures are supported on compact subsets of R^d, rates of convergence are derived for the L1-Wasserstein distance between the distribution of the test statistic and its subsampling approximation. These rates depend on some parameter \rho> 1. In addition, we prove that the power is bounded above by exp(−CN^(1/ \rho)), with C proportional to the square of the aforementioned pseudo-metric between the metric-measure spaces. Under some geometrical assumptions, we also derive lower bounds for this pseudo-metric. An algorithm is proposed for the implementation of this statistical test, and its performance is compared to the performance of other methods through numerical experiments

    A statistical test of isomorphism between metric-measure spaces using the distance-to-a-measure signature

    No full text

    Robust anisotropic power-functions-based filtrations for clustering

    No full text
    We consider robust power-distance functions that approximate the distance function to a compact set, from a noisy sample. We pay particular interest to robust power-distance functions that are anisotropic, in the sense that their sublevel sets are unions of ellipsoids, and not necessarily unions of balls. Using persistence homology on such power-distance functions provides robust clustering schemes. We investigate such clustering schemes and compare the different procedures on synthetic and real datasets. In particular, we enhance the good performance of the anisotropic method for some cases for which classical methods fail

    Une fonction distance à k points pour l'inférence géométrique robuste

    No full text
    Analyzing the sub-level sets of the distance to a compact sub-manifold of R d is a common method in topological data analysis, to understand its topology. Therefore, topological inference procedures usually rely on a distance estimate based on n sample points [41]. In the case where sample points are corrupted by noise, the distance-to-measure function (DTM, [16]) is a surrogate for the distance-to-compact-set function. In practice, computing the homology of its sub-level sets requires to compute the homology of unions of n balls ([28, 14]), that might become intractable whenever n is large. To simultaneously face the two problems of a large number of points and noise, we introduce the k-power-distance-to-measure function (k-PDTM). This new approximation of the distance-to-measure may be thought of as a k-pointbased approximation of the DTM. Its sublevel sets consist in unions of k balls, and this distance is also proved robust to noise. We assess the quality of this approximation for k possibly drastically smaller than n, and provide an algorithm to compute this k-PDTM from a sample. Numerical experiments illustrate the good behavior of this k-points approximation in a noisy topological inference framework.Afin de comprendre la topologie d'une sous-variété compacte de R^d, il est courant en analyse topologique des données d'analyser les sous-niveaux de la fonction distance à cette sous-variété. C'est pourquoi, les procédures d'inférence topologique reposent souvent sur des estimées de la fonction distance, construites sur n points. Lorsque l'échantillon de points est corrompu par des données aberrantes, la fonction distance à la mesure (DTM) est une alternative à la distance au compact. En pratique, le calcul de l'homologie de ses sous-niveaux revient à calculer l'homologie d'unions de n boules, ce qui devient impossible lorsque n est grand. Afin de pallier simultanément le problème du grand nombre de points et du bruit, nous introduisons la fonction k-puissance distance à la mesure (k-PDTM). Il s'agit d'une nouvelle approximation de la fonction distance à la mesure qui peut être vue comme une approximation de la DTM basée sur k points. Ses sous-niveaux sont des unions de k boules, et cette distance est robuste au bruit. Nous étudions la qualité de cette approximation pour k possiblement beaucoup plus petit que n, et fournissons un algorithme permettant de calculer cette k-PDTM à partir d'un échantillon de points. Des expériences numériques illustrent le bon comportement de cette approximation construite sur k points, dans le cadre de l'inférence topologique avec bruit

    A kk-points-based distance for robust geometric inference

    No full text

    Topics in robust statistical learning

    No full text
    International audienceSome recent contributions to robust inference are presented. Firstly, the classical problem of robust M-estimation of a location parameter is revisited using an optimal transport approach-with specifically designed Wasserstein-type distances-that reduces robustness to a continuity property. Secondly, a procedure of estimation of the distance function to a compact set is described, using union of balls. This methodology originates in the field of topological inference and offers as a byproduct a robust clustering method. Thirdly, a robust Lloyd-type algorithm for clustering is constructed, using a bootstrap variant of the median-of-means strategy. This algorithm comes with a robust initialization.Résumé. Quelques contributions récentesà l'inférence robuste sont présentées. Premièrement, le problème classique de la M-estimation robuste d'un paramètre de localisation est revisité en utilisant une approche de transport optimal, avec des distances de type Wasserstein spécifiquement conçues, qui réduit la robustesseà une propriété de continuité. La deuxième contribution décrit une procédure d'estimation de la fonction de distanceà un ensemble compact, en utilisant une union de boules. Cette méthodologie trouve son origine dans le domaine de l'inférence topologique et offre comme sous-produit une méthode de clustering robuste. Enfin, un algorithme robuste de type Lloyd pour le clustering est présenté, en utilisant une variante bootstrap de la stratégie "median-of-means". Cet algorithme s'accompagné notamment d'une initialisation robuste
    corecore